专家混合物(MOE)由于其成功提高了模型质量,特别是在变压器方面的成功而变得流行。通过向几个专家提供稀疏门的令牌,每个专家只包含完整模型的一部分,Moe将模型尺寸保持不变,并且显着降低了每次标记计算,从而有效地缩放神经网络。但是,我们发现,目前的联合训练专家和稀疏门的方法引入了对模型精度的负面影响,缩短了昂贵的大规模模型训练的效率。在这项工作中,我们提出了用于MOE训练的密集至稀疏的门(DTS-Gate)。具体而言,代替使用永久稀疏门,DTS-Gate开始作为向所有专家路由令牌的密集栅极开始,然后逐渐和自适应地成为稀疏,而路线较少到更少的专家。与DTS-Gate的Moe自然地通过培训所有专家训练专家和稀疏门的训练,然后学习稀疏门。实验表明,与GPT-MOE(1.5B)模型中的最先进的开关门相比,使用OpenWeBtext数据集(40GB),DTS-Gate可以获得2.0倍的加速以达到相同的验证困惑,如以及更高的拖鞋 - 效率为1.42倍的加速。
translated by 谷歌翻译
图形神经网络(GNN)代表了在图形结构上运行的深度学习模型的新兴线路。由于其在许多与图形相关任务中实现的高精度,它变得越来越受欢迎。然而,在系统和建筑社区中,GNN在系统和建筑社区中不太了解,作为其对应物,例如多层的感知和卷积神经网络。这项工作试图向我们的社区介绍GNN。与仅呈现GCNS的特征的事先工作相比,我们的工作基于一般GNN描述框架覆盖GNN工作负载的大部分品种。通过构建两个广泛使用的库之上的模型,我们在有关通用和特定于应用程序的架构的推理阶段的特征在于GNN计算,希望我们的工作能够促进更多的系统和建筑研究GNN。
translated by 谷歌翻译
With the attention mechanism, transformers achieve significant empirical successes. Despite the intuitive understanding that transformers perform relational inference over long sequences to produce desirable representations, we lack a rigorous theory on how the attention mechanism achieves it. In particular, several intriguing questions remain open: (a) What makes a desirable representation? (b) How does the attention mechanism infer the desirable representation within the forward pass? (c) How does a pretraining procedure learn to infer the desirable representation through the backward pass? We observe that, as is the case in BERT and ViT, input tokens are often exchangeable since they already include positional encodings. The notion of exchangeability induces a latent variable model that is invariant to input sizes, which enables our theoretical analysis. - To answer (a) on representation, we establish the existence of a sufficient and minimal representation of input tokens. In particular, such a representation instantiates the posterior distribution of the latent variable given input tokens, which plays a central role in predicting output labels and solving downstream tasks. - To answer (b) on inference, we prove that attention with the desired parameter infers the latent posterior up to an approximation error, which is decreasing in input sizes. In detail, we quantify how attention approximates the conditional mean of the value given the key, which characterizes how it performs relational inference over long sequences. - To answer (c) on learning, we prove that both supervised and self-supervised objectives allow empirical risk minimization to learn the desired parameter up to a generalization error, which is independent of input sizes. Particularly, in the self-supervised setting, we identify a condition number that is pivotal to solving downstream tasks.
translated by 谷歌翻译
在域移位下,跨域几个射击对象检测旨在通过一些注释的目标数据适应目标域中的对象检测器。存在两个重大挑战:(1)高度不足的目标域数据; (2)潜在的过度适应和误导性是由不当放大的目标样本而没有任何限制引起的。为了应对这些挑战,我们提出了一种由两个部分组成的自适应方法。首先,我们提出了一种自适应优化策略,以选择类似于目标样本的增强数据,而不是盲目增加数量。具体而言,我们过滤了增强的候选者,这些候选者在一开始就显着偏离了目标特征分布。其次,为了进一步释放数据限制,我们提出了多级域感知数据增强,以增加增强数据的多样性和合理性,从而利用了跨图像前景 - 背景混合物。实验表明,所提出的方法在多个基准测试中实现了最先进的性能。
translated by 谷歌翻译
由不同类型的节点和边缘组成的学习异质图增强了均匀图技术的结果。这样的图形的一个有趣示例是代表可能的软件代码执行流的控制流图。由于此类图代表了代码的更多语义信息,因此为这些图形开发技术和工具可能对检测软件中的漏洞的可靠性非常有益。但是,现有的异质图技术仍然不足以处理复杂的图形,在处理复杂的图形中,不同类型的节点和边缘数量较大且可变。本文集中于以太坊智能合约作为由构建在控制流图和包含不同类型的节点和链接的呼叫图的异质合同图表示的软件代码样本。我们提出了曼多(Mando),这是一种新的异质图表示,以学习这种异质合同图的结构。 Mando提取自定义的Metapaths,该Metapaths在不同类型的节点及其邻居之间建立了关系连接。此外,它开发了一个多米达异构图注意网络,以学习不同类型的节点及其在异质合同图中的多层嵌入,可以更准确地捕获智能合约的代码语义,并便利两者。 - 水平和粗粒合同级别的漏洞检测。我们对大型智能合同数据集的广泛评估表明,曼多(Mando)在粗粒合同水平上改善了其他技术的脆弱性检测结果。更重要的是,它是第一种基于学习的方法,能够在细粒度的线条层面上识别漏洞,并在F1分数方面将基于代码分析的传统漏洞检测方法显着提高了11.35%至70.81%。
translated by 谷歌翻译
鉴于它在提取功能表示方面的力量,对比性的自我监督学习已成功整合到(深)强化学习(RL)的实践中,从而在各种应用程序中提供了有效的政策学习。尽管取得了巨大的经验成功,但对RL的对比学习的理解仍然难以捉摸。为了缩小这样的差距,我们研究了Markov决策过程(MDP)和Markov Games(MGS)的对比度学习如何赋予RL的能力。对于这两种模型,我们建议通过最大程度地减少对比度损失来提取低级别模型的正确特征表示。此外,在在线环境下,我们提出了新颖的上限置信界(UCB)型算法,该算法将这种对比度损失与MDP或MGS的在线RL算法结合在一起。从理论上讲,我们进一步证明了我们的算法恢复了真实表示形式,并同时在学习MDP和MGS中学习最佳策略和NASH平衡方面同时实现了样本效率。我们还提供实证研究,以证明基于UCB的RL的对比度学习方法的功效。据我们所知,我们提供了第一种可证明有效的在线RL算法,该算法结合了代表学习的对比学习。我们的代码可从https://github.com/baichenjia/contrastive-ucb获得。
translated by 谷歌翻译
现有的基于深度学习(基于DL的)无监督的显着对象检测(USOD)方法基于传统显着性方法和预处理深网的先验知识,在图像中学习显着信息。但是,这些方法采用了一种简单的学习策略来训练深层网络,因此无法将培训样本的“隐藏”信息正确地纳入学习过程。此外,对于分割对象至关重要的外观信息仅在网络训练过程后用作后处理。为了解决这两个问题,我们提出了一个新颖的外观引导的细心自进度学习框架,以无视显着对象检测。提出的框架将自定进度的学习(SPL)和外观指导集成到统一的学习框架中。具体而言,对于第一期,我们提出了一个细心的自进度学习(ASPL)范式,该范式以有意义的命令组织培训样本,以逐步挖掘更详细的显着性信息。我们的ASPL促进了我们的框架,能够自动产生软关注权重,以纯粹的自学方式衡量训练样本的学习难度。对于第二期,我们提出了一个外观指南模块(AGM),该模块将每个像素作为显着性边界的概率的局部外观对比,并通过最大化概率找到目标对象的潜在边界。此外,我们通过汇总其他模态数据的外观向量,例如深度图,热图像或光流,将框架进一步扩展到其他多模式SOD任务。关于RGB,RGB-D,RGB-T和视频SOD基准的广泛实验证明,我们的框架可以针对现有的USOD方法实现最新性能,并且与最新的监督SOD方法相当。
translated by 谷歌翻译
研究兴趣大大增加了将数据驱动方法应用于力学问题的问题。尽管传统的机器学习(ML)方法已经实现了许多突破,但它们依赖于以下假设:培训(观察到的)数据和测试(看不见)数据是独立的且分布相同的(i.i.d)。因此,当应用于未知的测试环境和数据分布转移的现实世界力学问题时,传统的ML方法通常会崩溃。相反,分布(OOD)的概括假定测试数据可能会发生变化(即违反I.I.D.假设)。迄今为止,已经提出了多种方法来改善ML方法的OOD概括。但是,由于缺乏针对OOD回归问题的基准数据集,因此这些OOD方法在主导力学领域的回归问题上的效率仍然未知。为了解决这个问题,我们研究了机械回归问题的OOD泛化方法的性能。具体而言,我们确定了三个OOD问题:协变量移位,机制移位和采样偏差。对于每个问题,我们创建了两个基准示例,以扩展机械MNIST数据集收集,并研究了流行的OOD泛化方法在这些机械特定的回归问题上的性能。我们的数值实验表明,在大多数情况下,与传统的ML方法相比,在大多数情况下,在这些OOD问题上的传统ML方法的性能更好,但迫切需要开发更强大的OOD概括方法,这些方法在多个OOD场景中有效。总体而言,我们希望这项研究以及相关的开放访问基准数据集将进一步开发用于机械特定回归问题的OOD泛化方法。
translated by 谷歌翻译
尖峰神经网络是低功率环境的有效计算模型。基于SPIKE的BP算法和ANN-TO-SNN(ANN2SNN)转换是SNN培训的成功技术。然而,尖峰碱BP训练速度很慢,需要大量的记忆成本。尽管Ann2NN提供了一种培训SNN的低成本方式,但它需要许多推理步骤才能模仿训练有素的ANN以表现良好。在本文中,我们提出了一个snn-to-ang(SNN2ANN)框架,以快速和记忆的方式训练SNN。 SNN2ANN由2个组成部分组成:a)ANN和SNN和B)尖峰映射单元之间的重量共享体系结构。首先,该体系结构在ANN分支上训练重量共享参数,从而快速训练和SNN的记忆成本较低。其次,尖峰映射单元确保ANN的激活值是尖峰特征。结果,可以通过训练ANN分支来优化SNN的分类误差。此外,我们设计了一种自适应阈值调整(ATA)算法来解决嘈杂的尖峰问题。实验结果表明,我们的基于SNN2ANN的模型在基准数据集(CIFAR10,CIFAR100和TININE-IMAGENET)上表现良好。此外,SNN2ANN可以在0.625倍的时间步长,0.377倍训练时间,0.27倍GPU内存成本以及基于SPIKE的BP模型的0.33倍尖峰活动下实现可比精度。
translated by 谷歌翻译
异常检测(OD)文献表现出许多适用于不同领域的算法。但是,鉴于新的检测任务,尚不清楚如何选择要使用的算法,也不清楚如何在无监督的设置中设置其超参数(S)(HPS)。 HP调整是一个不断增长的问题,基于深度学习的许多新探测器的到来。尽管它们具有诸如任务驱动的表示学习和端到端优化之类的吸引力,但深层模型附带了一长串HP。令人惊讶的是,在离群矿业文献中选择模型的问题是“房间里的大象”。释放深层方法的最大潜力的重要因素,但很少有人说或系统地解决这个问题。在本文的第一部分中,我们对Deep OD方法的HP敏感性进行了第一个大规模分析,并通过35,000多个训练有素的模型进行了定量证明模型选择是不可避免的。接下来,我们设计了一个称为Robod的HP刺激性和可扩展的深度高音模型,该模型以不同的HP配置组装模型,绕过选择瘫痪。重要的是,我们引入了新的策略来加快整体培训的速度,例如参数共享,批处理/同时培训和数据亚采样,使我们能够更少的参数培训较少的模型。图像和表格数据集的广泛实验表明,与其现代对应物相比,机器人可以实现并保留强大的最先进的检测性能,同时仅将2-10%的时间与独立的幼稚的超氛围相比,训练。
translated by 谷歌翻译